6 RESULTADOS

A continuación mostramos los clusters generados anteriormente con cada uno de los métodos en nuestras data limpia que se generó antes del proceso de Análisis Componentes Principales.

6.1 Método Jerárquico

En primer lugar mostramos los resultados obtenidos del método jerárquico, para ello trabajamos con nuestros datas originales que pasaron por el análisis exploratorio de datos, la cual estandarizamos y añadimos los resultados de los clusters como se observa a continuación.

dat_sc <- scale(data2)
dat_sc <- as.data.frame(dat_sc)
dat_sc$Cluster_hc <-  as.factor(output_hc$cluster)

Así mismo generamos un nuevo data frame que nos muestra las caracteristicas de nuestros observaciones agrupadas en los clusters indicados.

dat_sc$Cluster_hc <- factor(dat_sc$Cluster_hc)
dat_hc <- gather(dat_sc, Caracteristica, Valor, Pob:E_60_, factor_key = T)
head(dat_hc)
##   Cluster_hc Caracteristica      Valor
## 1          1            Pob -0.3070297
## 2          2            Pob -0.2173619
## 3          1            Pob -0.3036710
## 4          2            Pob -0.1792590
## 5          2            Pob -0.2768755
## 6          2            Pob -0.1845715

Ploteamos los datos anteriomente tratada, lo cual se presenta a continuación.

ggplot(dat_hc, aes(as.factor(x = Caracteristica), y = Valor,
                      group=Cluster_hc, colour = Cluster_hc)) + 
  stat_summary(fun = mean, geom="pointrange", size = 1)+
  stat_summary(geom="line")+
  geom_point(aes(shape=Cluster_hc))
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 84 rows containing missing values (geom_segment).

Observamos de la gráficaa anterior en la que se muestra las caracteristicas de nuestras observaciones como por ejemplo, la variable población se tiene en mayor cantidad para el cluster 3, cabe recalcar que los puntos resaltantes son la media de los individuos dentro del cluster, de esa manera podemos caracterizar los siguientes cluster.

Asimismo, vamos a mostrar nuestros datos espacializados, ya que estamos trabajando con los departamentos del Perú, para ello primero añadimos los datos vectoriales.

dep <- st_read("Regiones/Base Regional.shp")
## Reading layer `Base Regional' from data source 
##   `D:\PIERINA\2021_1\Grupo4_Programacion2\PROYECTO\Regiones\Base Regional.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 25 features and 4 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -203260.8 ymin: 7964769 xmax: 1190991 ymax: 9995733
## Projected CRS: WGS 84 / UTM zone 18S
dep <- dep %>% 
  dplyr::select(-c("FIRST_IDDP", "HECTARES", "COUNT"))
dep1 <- dep[!(dep$NOMBDEP %in% c("CALLAO", "LIMA", "MADRE DE DIOS", 
                                 "MOQUEGUA")), ]

dat_sc$NOMBDEP <- row.names(dat_sc)
names(dat_sc)[names(dat_sc)=="Dep"] <- "NOMBDEP"

df_hc_map <- dplyr::full_join(dep1, dat_sc, by = "NOMBDEP")

mapview::mapview(df_hc_map[30])

6.2 Método K-means

Ahora pasamos a mostrar los resultados obtenidos con el método de clusterización K-means siguiendo el mismo procedimiento detallado anteriormente.

dat_sc2 <- scale(data2)
dat_sc2 <- as.data.frame(dat_sc2)
dat_sc2$Cluster_km <- as.factor(model$cluster)

Así mismo generamos un nuevo data frame que nos muestra las caracteristicas de nuestros observaciones agrupadas en los clusters indicados.

dat_sc2$Cluster_km <- factor(dat_sc2$Cluster_km)
dat_km <- gather(dat_sc2, Caracteristica, Valor, Pob:E_60_, 
                 factor_key = T)
head(dat_km)
##   Cluster_km Caracteristica      Valor
## 1          3            Pob -0.3070297
## 2          2            Pob -0.2173619
## 3          3            Pob -0.3036710
## 4          2            Pob -0.1792590
## 5          2            Pob -0.2768755
## 6          2            Pob -0.1845715

Ploteamos los datos anteriomente tratada, lo cual se presenta a continuación.

ggplot(dat_km, aes(as.factor(x = Caracteristica), y = Valor,
                      group=Cluster_km, colour = Cluster_km)) + 
  stat_summary(fun = mean, geom="pointrange", size = 1)+
  stat_summary(geom="line")+
  geom_point(aes(shape=Cluster_km))
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 84 rows containing missing values (geom_segment).

Como en el resultado mostrado anteriormente tenemos la misma caracterización de los cluster generados.

Asimismo, vamos a mostrar nuestros datos espacializados, ya que estamos trabajando con los departamentos del Perú, para ello primero añadimos los datos vectoriales.

dat_sc2$NOMBDEP <- row.names(dat_sc2)
names(dat_sc2)[names(dat_sc2)=="Dep"] <- "NOMBDEP"

df_km_map <- dplyr::full_join(dep1, dat_sc2, by = "NOMBDEP")

mapview::mapview(df_km_map[30])

6.3 Método K-means++

Ahora pasamos a mostrar los resultados obtenidos con el método de clusterización K-means++ siguiendo el mismo procedimiento detallado anteriormente.

dat_sc3 <- scale(data2)
dat_sc3 <- as.data.frame(dat_sc3)
dat_sc3$Cluster_kpp <- as.factor(model2$cluster)

Así mismo generamos un nuevo data frame que nos muestra las caracteristicas de nuestros observaciones agrupadas en los clusters indicados.

dat_sc3$Cluster_kpp <- factor(dat_sc3$Cluster_kpp)
dat_kpp <- gather(dat_sc3, Caracteristica, Valor, Pob:E_60_, 
                 factor_key = T)
head(dat_kpp)
##   Cluster_kpp Caracteristica      Valor
## 1           3            Pob -0.3070297
## 2           2            Pob -0.2173619
## 3           3            Pob -0.3036710
## 4           2            Pob -0.1792590
## 5           2            Pob -0.2768755
## 6           2            Pob -0.1845715

Ploteamos los datos anteriomente tratada, lo cual se presenta a continuación.

ggplot(dat_kpp, aes(as.factor(x = Caracteristica), y = Valor,
                      group=Cluster_kpp, colour = Cluster_kpp)) + 
  stat_summary(fun = mean, geom="pointrange", size = 1)+
  stat_summary(geom="line")+
  geom_point(aes(shape=Cluster_kpp))
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 84 rows containing missing values (geom_segment).

Como en el resultado mostrado anteriormente tenemos la misma caracterización de los cluster generados.

Asimismo, vamos a mostrar nuestros datos espacializados, ya que estamos trabajando con los departamentos del Perú, para ello primero añadimos los datos vectoriales.

dat_sc3$NOMBDEP <- row.names(dat_sc3)
names(dat_sc3)[names(dat_sc3)=="Dep"] <- "NOMBDEP"

df_kpp_map <- dplyr::full_join(dep1, dat_sc2, by = "NOMBDEP")

mapview::mapview(df_kpp_map[30])